现有的基于深度学习的3D对象检测器通常依赖于单个对象的外观,并且不明确注意场景的丰富上下文信息。在这项工作中,我们为3D对象检测(CMR3D)框架提出了上下文化的多阶段完善,该框架将3D场景作为输入,并努力在多个级别上明确整合场景的有用上下文信息,以预测一组对象界限盒以及它们相应的语义标签。为此,我们建议利用一个上下文增强网络,该网络在不同级别的粒度级别上捕获上下文信息,然后是多阶段修补模块,以逐步完善框位置和类预测。大规模ScannETV2基准测试的广泛实验揭示了我们提出的方法的好处,从而使基线的绝对提高了2.0%。除3D对象检测外,我们还研究了CMR3D框架在3D对象计数问题上的有效性。我们的源代码将公开发布。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
在过去的几年中,基于卷积的神经网络(CNN)的人群计数方法已取得了有希望的结果。但是,对于准确的计数估计,量表变化问题仍然是一个巨大的挑战。在本文中,我们提出了一个多尺度特征聚合网络(MSFANET),可以在某种程度上减轻此问题。具体而言,我们的方法由两个特征聚合模块组成:短聚合(Shortagg)和Skip Contregation(Skipagg)。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是,Skipagg模块引入了Swin Transformer块中的本地自我注意力特征,以结合丰富的空间信息。此外,我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集(Shanghaitech数据集,UCF_CC_50数据集,UCF-QNRF数据集,WorldExpo'10数据集)上进行了广泛的实验,这表明与先前的先前的尚未实行的方法相比,提出的易于实现的MSFANET可以实现有希望的结果。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
近年来,由于3D数据收集和深度学习技术的进步,对点云的3D对象检测已取得了重大进展。然而,3D场景表现出很多变化,并且容易出现传感器的不准确性以及预处理过程中的信息丢失。因此,对于针对这些变化的设计技术至关重要。这需要详细的分析和理解此类变化的影响。这项工作旨在分析和基准基于流行的基于点的3D对象检测器,以针对几个数据损坏。据我们所知,我们是第一个研究基于点的3D对象探测器的鲁棒性的人。为此,我们设计和评估涉及数据添加,减少和更改的损坏。我们进一步研究了不同模块对局部和全球变化的鲁棒性。我们的实验结果揭示了一些有趣的发现。例如,与在点级别上使用变压器相比,我们表明在补丁或对象级别集成变压器的方法会增加鲁棒性。
translated by 谷歌翻译
为了实现不断增长的准确性,通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源,因此不能在边缘设备上部署。由于它们在几个应用领域的有用性,建立资源有效的通用网络非常感兴趣。在这项工作中,我们努力有效地结合了CNN和变压器模型的优势,并提出了一种新的有效混合体系结构。特别是在EDGENEXT中,我们引入了分裂深度转置注意力(SDTA)编码器,该编码器将输入张量分解为多个通道组,并利用深度旋转以及跨通道维度的自我注意力,以隐含地增加接受场并编码多尺度特征。我们在分类,检测和分割任务上进行的广泛实验揭示了所提出的方法的优点,优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \%TOP-1的精度,超过移动设备的绝对增益为2.2 \%,而拖鞋减少了28 \%。此外,我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \%TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。
translated by 谷歌翻译
我们提出了一种新颖的少量射击动作识别框架,它增强了特定于类特征的特征歧视性,同时学习高阶时间表示。我们的方法的重点是一种新的时空浓缩模块,可以使用专用的本地补丁级别和全局帧级别富集子模块聚合空间和时间上下文。本地补丁级别的浓缩捕获了基于外观的动作特征。另一方面,全局帧级富集明确地编码了广泛的时间上下文,从而随着时间的推移捕获相关对象特征。然后利用产生的时空富集的表示来学习查询和支持动作子序列之间的关系匹配。我们在补丁级丰富的功能上进一步引入了查询类相似性分类器,通过在所提出的框架中加强特征学习来增强特定于类的特征歧视性。实验是在四次拍摄动作识别基准测试中执行:动力学,SSV2,HMDB51和UCF101。我们广泛的消融研究揭示了拟议贡献的好处。此外,我们的方法在所有四个基准上设置了一种新的最先进的。在挑战SSV2基准测试中,与文献中的最佳现有方法相比,我们的方法在分类准确性中实现了3.5%的绝对增益。我们的代码和型号将公开发布。
translated by 谷歌翻译
创意素描或涂鸦是一种表达活动,在那里绘制了想象力和以前看不见的日常视觉物体的描述。创意草图图像生成是一个具有挑战性的视觉问题,任务是生成不同但现实的创意草图,拥有视觉世界对象的看不见的构成。在这里,我们提出了一种新颖的粗待精细的两级框架,DooDleformer,将创意草图生成问题分解成粗略草图组合物的创建,然后在草图中掺入细节。我们介绍了图形感知的变压器编码器,可有效地捕获了不同身体部位之间的全局动态以及局部静态结构关系。为确保所生成的创意草图的多样性,我们介绍了一个概率粗略草图解码器,该解码器明确地模拟了要绘制的每个草图身体部位的变化。在两个创意素描数据集上进行实验:创意鸟类和创意生物。我们的定性,定量和以人为主的评估表明,DooDleformer在两个数据集中表现出最先进的,屈服于现实和多样化的创意草图。在创意生物上,DooDleformer通过最先进的FR`chet unception距离(FID)来实现25的绝对增益。我们还展示了DoodleFormer对创意草图生成和草图完成的相关申请的有效性。
translated by 谷歌翻译
什么构成一个物体?这是计算机愿景中的长期问题。为了实现这一目标,已经开发了许多基于学习的基于学习的方法来得分对象。但是,它们通常不会划过新域和未经看不见的对象。在本文中,我们倡导现有方法缺乏由人类可理解的语义管理的自上而下的监督信号。为了弥合这一差距,我们探索了已经用对齐的图像文本对培训的多模态视觉变压器(MVIT)。我们对各个域和新型对象的广泛实验显示了MVITS的最先进的性能,以使图像中的通用对象本地化。基于这些发现,我们使用多尺度特征处理和可变形的自我关注来开发一种高效且灵活的MVIT架构,可以自适应地生成给定特定语言查询的提议。我们展示了MVIT提案在各种应用中的重要性,包括开放世界对象检测,突出和伪装对象检测,监督和自我监督的检测任务。此外,MVITS提供了具有可理解文本查询的增强的交互性。代码:https://git.io/j1hpy。
translated by 谷歌翻译
The rise in data has led to the need for dimension reduction techniques, especially in the area of non-scalar variables, including time series, natural language processing, and computer vision. In this paper, we specifically investigate dimension reduction for time series through functional data analysis. Current methods for dimension reduction in functional data are functional principal component analysis and functional autoencoders, which are limited to linear mappings or scalar representations for the time series, which is inefficient. In real data applications, the nature of the data is much more complex. We propose a non-linear function-on-function approach, which consists of a functional encoder and a functional decoder, that uses continuous hidden layers consisting of continuous neurons to learn the structure inherent in functional data, which addresses the aforementioned concerns in the existing approaches. Our approach gives a low dimension latent representation by reducing the number of functional features as well as the timepoints at which the functions are observed. The effectiveness of the proposed model is demonstrated through multiple simulations and real data examples.
translated by 谷歌翻译